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摘 2. 针对 双向 长 短 时 记忆 神经 (BiLSTM) 模 型 训练 时 间 长 、 不 能 充分 学 习 文 本 上 下 文 信息 的 问题 ， 提 出 一 种 基于 
BiGRU-Attention 的 文本 情感 分 类 模型 。 首 先 ， 利 用 双向 门 控 循 环 (BiGRU) 神 经 网 络 层 对 文本 深层 次 的 信息 进行 特征 提 
取 ; 其 次 ， 利 用 注意 力 机 制 (attention) 层 对 提取 的 文本 深层 次 信息 分 配 相 应 的 权重 ; 最 后 ， 将 不 同 权 重 的 文本 特征 信息 
放 入 softmax 函数 层 进 行文 本 情感 极 性 分 类 。 实 验 结果 表明 ， 所 提 的 神经 网 络 模型 在 IMDB 数据 集 上 的 准确 率 是 
90.54%， 损 失 率 是 0.2430， 时 间 代 价 是 1100 s， 验 证 了 BiGRU-Attention 模型 的 有 效 性 。 
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Abstract: The BiLSTM neural network model has long training time and can not fully learn text context informations. In 
order to solve the problems, this work proposes a text emotion classification model based on BiGRU- Attention neural network. 
Firstly, the bidirectional Gated Recurrent Unity (BiGRU) neural network layer was used to extract the features of the deep text 
© information; secondly, the attention mechanism (Attention) layer was used to allocate the corresponding weight of the 
C extracted text deep information. Finally, the text feature messages of different weights are put into the softmax function layer 
to carry out the text sentiment classifications. The experimental results show that the accuracy of the proposed neural network 
model is 90.54% on the IMDB data set, the loss rate is 0.2430 and the time cost is 1100s and the validity of the 
BiGRU-Attention model is verified. 
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0 ala 类 的 准确 率 。 虽 然 采 用 CNN 相 比 传统 研究 人 员 所 采用 的 基于 
规则 和 机 器 学 习 包 算法 准确 率 提 高 了 ， 但 仍 不 能 充分 学 习 文本 

文本 情感 分 类 是 NLP 领域 的 一 个 重要 任务 , 通常 是 对 带 有 ”上下文 信 息 。 随 着 研究 的 不 断 深入 , Mikolov 等 人 中 提出 将 RNN 
主观 情感 色彩 的 文本 进行 分 类 。 文 本 情感 分 类 能 对 文本 层次 特 。 ”应 用 到 文本 分 类 任务 , 由 于 RNN 当前 节点 的 输出 值 由 当前 的 输 


征 进行 提取 ， 挖 掘 用 户 的 情感 倾向 ， 被 广泛 应 用 在 政策 意见 挖 入 和 上 一 个 节点 的 输出 两 部 分 共同 决定 ， 使 得 RNN 能 够 充分 
掘 、 民 意 调 查 、 产 品 分 析 、 电 影 推荐 、 搜 索 排 名 等 领域 。 近 年 ”学习 文本 前 后 上 下 之 间 的 信息 , 因此 RNN HE CNN 适合 于 文本 
X, Web 2.0 的 兴起 掀起 了 用 户主 动 创造 信息 的 时 代 ， 用 户 可 438: 但 RNN 长 期 依赖 学 习 的 特征 会 容易 出 现 梯度 弥散 的 问 
以 随时 通过 移动 终端 发 表 自 己 意见 和 评论 ， 因 此 用 户 评论 数据 题 。 为 了 解决 梯度 弥散 问题 LSTM 和 GRU 等 众多 变 体 被 提 
呈 指 数 型 增长 。 研 究 人 员 最 初 使 用 的 朴素 贝 叶 斯 等 浅 层 次 机 器 ”出 并 在 情感 分 类 领域 广泛 应 用 ， 但 LSTM 由 于 结构 的 复杂 性 
学 习 算法 已 不 能 满足 与 日 俱 增 的 数据 处 理 的 需要 ， 因 此 神经 网 ”计算 异常 复杂 ， 存 储 了 多 余 的 中 间 变 量 ， 因 此 需要 大 量 的 训练 
络 应 运 而 生 并 且 成 为 近年 来 的 研究 热点 。 时 间 和 内 存 空间 且 LSTM、GRU 只 能 利用 历史 信息 来 对 当前 信 

CNN 最 初 在 图 像 领域 得 到 广泛 应 用 , 并 迅速 扩展 到 其 他 领 ” 息 作出 判断 ， 无 法 利用 未 来 信息 ， 有 时 可 能 无 法 对 当前 信息 进 
域 。LeCun SANCY CNN 应 用 到 文本 情感 分 类 , 提高 了 文本 分 。 行 准确 的 判断 和 充分 地 文本 信息 提取 ;目前 广泛 在 文本 领域 应 
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录用 定稿 Z db, i 基于 BIGRU-Attention Chip YS z iz, HN T 
用 的 BiLSTM 和 attention 机 制 结 合 的 模型 ， 仍 无 法 摆脱 复杂 计 的 表达 和 预测 要 翻译 的 词 联系 起 来 ， 这 也 是 attention 机 制 在 自 
算 造成 的 训练 时 间 过 长 的 问题 。 然 语言 处 理 领 域 的 首次 应 用 ;Luong 等 人 [9 介绍 了 全 局 和 局 部 

针对 上 述 问题 ， 本 文 提 出 了 一 种 BiGRU-Attention 模型 ， 两 种 注意 力 机 制 ，Yin 等 人 [介绍 了 卷 积 和 attention 机 制 结合 
将 文本 的 输入 向 量 放 入 BiGRU 层 相 比 放 入 BiLSTM 层 ， 能 进 的 三 种 方式 ， 可 以 在 输入 CNN 之 前 加 入 attention 机 制 ， 可 以 
一 步 减 少 网 络 训 练 的 时 间 ; 把 BIGRU 层 的 输出 向 量 放 入 ERT CNN 特征 提取 后 ， 池 化 之 前 加 入 attention 机 制 ， 也 可 
Attention 层 能 进一步 突出 文本 的 关键 信息 ， 提 高 文本 信息 的 提 以 把 以 上 两 种 方式 结合 起 来 添加 attention 机 制 ,这 也 是 attention 


Hit. BIGRU-Attention 模型 在 IMDB 数据 集 上 进行 对 比 实 机 制 在 CNN 中 的 首次 探索 ， 在 2014~2015 年 attention 机 制 在 
验 ， 将 准确 率 、 损 失 率 和 时 间 代 价 作为 评价 指标 ， 证 明 J 机 器 翻译 上 开始 流行 ，2015 年 attention 机 制 与 RNN 结合 的 神 
BiGRU-Attention 模型 在 文本 分 类 方面 的 有 效 性 。 经 网 络 模型 在 自然 语言 领域 广泛 应 用 ; 2015 一 2016 年 attention 
机 制 和 CNN 相 结 合 的 神经 网 络 模型 成 为 研究 热点 。 随 后 ， 王 
1 ”相关 研究 He IN MT 
究 人 员 利 用 attention 机 制 和 神经 网 络 模型 进行 文本 情感 分 类 层 
利用 深度 学 习 的 方法 研究 文本 情感 分 类 近年 如 雨后春笋 般 ”出 不 穷 , 并 成 为 近年 来 的 研究 热点 
的 涌现 。 梁 军 等 人 外 采用 递归 神经 网 络 的 情感 转移 模型 加 强 文 随 着 LSTM、CNN、attention 机 制 等 混合 神经 网 络 模型 在 
本 相关 性 的 捕获 ; 白 静 等 人 外 提出 使 用 BiLSTM-CNN-Attention 文本 情感 分 类 中 的 广泛 应 用 , 在 LSTM 5 attention 机 制 的 结合 
的 混合 神经 网 络 结构 进行 两 种 特征 融合 的 分 类 ; 梁 斌 等 人 中 采 的 模型 在 文本 方面 取得 的 卓越 成 绩 后 ， 人 们 逐渐 把 目光 投向 
用 attention 机 制 和 CNN 结合 的 混合 模型 ， 解 决 平 行 化 问题 ， attention 机 制 与 BILSTM, Bi-GRU 的 研究 。 国 内 外 近 两 三 年 此 
降低 模型 训练 时 间 ; 赵 勤 鲁 等 人 中 提出 LSTM-Attention 模型 充 。 ”类 研究 也 开始 涌现 。 田 生 伟 等 人 利用 Bi-LSTM 和 attention 
分 提取 了 语义 结构 信息 ; 杨 东 等 人 由 提出 CNN. GRU 和 机制 结 合 的 混合 神经 网 络 对 维吾尔 语 事件 时 序 关 系 进 行 识别 ， 
Attention 机 制 的 混合 神经 网 络 模型 对 文本 进行 特征 提取 ; 司 念 。 这 种 神经 网 络 混合 的 方式 先 把 文本 向 量 放 入 Bi-LSTM 层 , 提取 
文 等 人 中 提出 attention 机 制 和 LSTM 混合 模型 更 加 有 效 地 对 中 ”一 些 文本 信息 ， 然 后 放 入 attention 机 制 层 进行 深层 文本 特征 提 
文 词性 进行 标注 ; 王 业 沛 等 人 Wo 采 用 LSTM 神经 网 络 进行 判断 ” 取 ， 最 后 放 入 到 softmax 层 进行 文本 情感 分 类 ; 司 念 文 等 人 中 
结果 的 倾向 性 任务 分 析 ， 有 效 地 提高 了 裁判 文书 中 关键 信息 提 提出 LSTM-BiLSTM-Attention 网 络 模型 更 加 有 效 地 对 中 文 词性 
取 的 准确 性 ; 朱 星 嘉 等 人 0 提出 了 改进 的 attention-based LSTM ”进行 标注 ， 首 先 利用 LSTM 层 进行 文本 特征 提取 ， 然 后 利用 
的 特征 选择 模型 ， 解 决 了 数据 的 维度 灾难 问题 ， 有 效 地 突出 了 BiLSTM 双方 向 的 原理 通过 双向 的 词性 来 对 目标 词 进行 标注 ， 
文本 的 重点 特征 信息 ; 李 阳 辉 等 人 03 将 降 品 自 编码 的 深度 学 习 ”最 后 利用 Attention 层 进一步 提取 重点 信息 , 增加 词性 标注 的 准 
方法 应 用 在 情感 分 析 任 务 ， 提 高 了 模型 对 原始 数据 的 鲁 棒 性 和 — 确 性 ; 成 璐 0 提出 了 基于 attention 机 制 和 BiLSTM 的 神经 网 络 
信息 特征 的 表达 能 力 ， 刘 洋 03 采 用 GRU 神经 网 络 对 时 间 序 列 ”模型 对 中 文 商品 评论 进行 情感 分 析 , 将 分 词 后 的 词 向 量 的 形式 
进行 预测 , 提高 了 预测 方案 的 准确 性 ; 李 允 等 人 049 采 用 BiGRU ” 放 入 Bi-LSTM 进行 文本 特征 提取 ， 放 入 Attention 层 突出 文本 
网 络 对 互联 网 信息 输入 序列 快速 准确 地 实现 特定 信息 的 提取 ; 分 类 中 的 重点 信息 ;Rozental 等 人 29 提出 使 用 BiGRU 神经 网 络 
黄 兆 玮 等 人 05 采 用 GRU 和 attention 机 制 结合 的 远程 监督 关系 ” ”和 卷 积 的 最 大 池 化 进行 多 次 操作 的 混合 模型 来 提取 文本 特征 信 
抽取 的 方法 提高 了 准确 率 ; 张 玉 环 等 人 (6 利用 LSTM 及 GRU E, RAE softmax 层 进行 文本 分 类 ， 用 英语 和 西班牙 语 来 测 
搭建 文本 情感 分 类 模型 使 模型 在 较 短 的 时 间 内 达到 较 高 的 准确 。” 试 实验 模型 ， 取 得 第 一 和 第 三 的 好 成 绩 ，Chen 等 人 R27 使 用 
率 ; 田 竹 (71 将 RSGRU 的 混合 神经 网 络 应 用 在 语句 级 情感 分 析 ”Bi-LSTM 和 位 置 Attention 机 制 结合 的 混合 神经 进行 文本 分 类 ， 
任务 ， 节 约 了 人 力 ， 更 加 容易 维护 ; Zhou 等 人 (5 采用 最 小 门 。 也 取得 不 错 的 分 类 效果 ; Kumar 等 人 3 使 用 简单 的 BiLSTM 和 
控 单 元 (MGU) 对 序列 化 的 数据 进行 处 理 , 加 快 了 模型 的 训练 速 ” 两 层 attention 机 制 简单 混搭 的 模型 , 在 BiLSTM 层 提取 了 文本 
度 ; 黄磊 等 人 09 采 用 LSTM 和 GRU 的 混合 神经 网 络 模型 对 文 寺 征 信息 后 ， 分 别 顺序 建立 了 词语 级 的 attention 机制 和 句子 级 
本 重点 信息 进行 提取 ， 召 回 率 明 显 提高 。 的 attention 机 制 , 将 该 实验 模型 在 SemEval 2017 Task 5 上 进行 
近年 ，attention 机 制 在 自然 语言 处 理 领域 广泛 应 用 ， 评测 ， 在 sub-tracks 1 和 2 的 评测 结果 比 目 前 最 好 的 系统 分 别 
attention 机 制 最 早 应 用 在 计算 机 视觉 图 像 领域 。2014 年 google JER 1.7 和 3.7 个 百分点 。 
mind 团队 29 使 用 循环 神经 网 络 和 attention. 机 制 的 混合 模型 做 无 论 是 对 维吾尔 族 语 事件 时 序 关 系 的 分 析 、 中 文 词 性 的 分 
图 像 分 类 ， 它 的 主要 思想 是 当 观 察 某 图 片 时 ， 人 们 经 常会 。” 析 或 者 商品 评论 分 析 还 是 国外 对 BiLSTM 或 Bi-GRU 的 一 些 最 
把 注意 力 集中 到 某 一 小 块 区 域 ， 并 能 根据 之 前 的 观察 来 预测 未 ” 新 研究 ， 本 质 上 都 是 利用 神经 网 络 和 attention ooo 
来 的 注意 力 应 该 集中 图 像 的 位 置 ， 根 据 当 前 的 输入 和 前 一 状态 ”模型 对 文本 进行 相关 处 理 ， 提 取 深 层次 文本 信息 ;大 部 分 采 
去 确定 当前 状态 应 该 处 理 的 注意 力 部 分 ， 处 理 的 像素 更 少 ， 问 的 是 BiLSTM 或 者 BiGRU 和 attention Use wu 
题 任务 更 加 简单 化 ;随后 Bahdanau SAPIDA. attention 机 制 应 且 大 部 分 模型 都 经 历 了 将 文本 向 量 放 入 Bi-LSTM 层 特征 提取 、 
用 在 机 器 翻译 任务 ， 通 过 attention 机 制 把 源 语 言 端 每 个 词 学 到 ”注意 力 机 制 层 突出 重点 信息 ，softmax 层 文 本 分 类 三 个 阶段 。 这 
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些 研 究 都 把 很 大 的 注意 力 放 在 了 Bi-LSTM 或 BiGRU 神经 网 络 — LSTM 的 具体 工作 原理 可 以 通过 以 wn a 
和 attention 结合 的 模型 研究 上 ， 并 且 取 得 了 不 错 的 效果 。 本 文 f, = sigmoid(W, [^ *b,) (1) 
的 算法 模型 在 以 前 研究 成 果 基 础 上 ， 提 出 了 一 种 更 加 简单 的 模 i, = sigmoid (W, - " A 2) 
型 ， 采 用 结构 更 加 简练 、 计 算 更 加 简单 和 存储 空间 更 小 的 
C, - tanh(W, -[, , x, ] +b.) (3) 
BiGRU E, attention JE, softmax 层 和 全 连接 层 的 简单 混合 神 
经 结构 来 提取 特征 信息 ， 进 行文 本 分 类 。 C-f*C,ti*C, (4) 
、 . . - o, = sigmoid (w, [85x] 5,) (5) 
2 相关 技术 及 BIGRU-Attention 模型 | 
h, =0, *tanh(C,) (6) 
2.1 相关 技术 从 图 2 和 公式 可 以 看 出 ，LSTM 由 输入 门 、 记 忆 单 元 、 输 
2.1.1 长 短期 记忆 神经 出 门 和 遗忘 门 四 部 分 组 成 。 其 中 , 上 KR t ARRA E, Aa 


RNN 是 一 种 用 来 处 理 序列 数据 的 特殊 的 神经 网 络 , 这 种 神 表示 上 一 个 时 刻 的 输出 向 量 ， (QW, Ws Wwe Ww, 表示 各 个 相应 部 分 
经 网 络 的 功能 与 人 的 一 些 思考 习惯 类 似 。 想 象 这 样 一 个 情景 ， 的 权重 系数 和 矩阵，{bj,b,b.,b, 7 表示 各 个 相应 部 分 的 偏 移 向 量 ， 
当 我 们 做 英语 四 、 六 级 选 词 填空 时 ， 确 定 空格 要 填 的 单词 ， 我 sigmoid 表示 激活 函数 ， 式 (1) 计 算 的 是 遗忘 门 的 值 ， 看 有 
———— 前 面 单 词 的 前 面 单 词 如 言 息 可 以 进行 保留 ， 由 式 (]) 的 形式 可 以 看 出 上 时 刻 遗 忘 门 的 值 
The sea water in the deep sea is very ” ， 通 过 阅读 very 及 之 前 x 和 及 共同 决定 ; 式 (2) 计 算 的 是 用 sigmoid 函数 去 激活 的 
的 in the deep sea 可 以 知道 此 处 应 选 deep。 同 样 的 RNN 就 是 为 (W «[.] 5) 4 Rio s AE, XQ) TE ERI AE Bh ha A x 决定 的 候 
了 解决 文本 中 当前 输出 与 当前 输入 和 前 一 时 刻 输出 的 关系 而 诞 选 记 忆 单 元 的 值 ; 式 (4) 计 算 的 是 记忆 状态 单元 通过 GC, 和 ,对 
生 的 神经 网 络 。RNN 主要 应 用 在 语音 识别 、 机 器 翻译 、 中 文 分 和 i 的 调节 作用 后 的 值 ; 式 (5)(6) 计 算 的 是 1 时 刻 由 :和 % 决 
词 和 词性 标注 等 序列 化 数据 的 领域 ， 并 在 该 领域 取得 了 良好 的 定 的 经 过 内 部 循环 和 更 新 的 LSTM 最 后 的 隐 层 状态 的 输出 疡 。 
成 果 。 随 着 研究 活动 的 不 断 开展 ，RNN 被 广泛 应 用 在 文本 处 理 。 2.1.2 GRU 
方面 ， 近年 来 ， 被 用 在 情感 分 析 领 域 的 模型 更 是 层出不穷 。 经 随 着 LSTM 在 自然 语言 处 理 特别 是 文本 分 类 任务 的 广泛 应 
的 RNN 结构 由 输入 层 、 隐 含 层 和 输出 层 组 成 。RNN 可 以 六 ， 人 们 逐渐 发 现 LSTM 具有 训练 时 间 长 、 参 数 较 多 、 内 部 计 
习 文 本 上 下 文 的 语义 信息 ， 抽 取 到 的 特征 信息 可 以 作为 其 他 算 复 杂 的 缺点 。Cho 等 人 在 2014 年 进一步 提出 了 更 加 简单 的 、 
经 网 络 或 其 他 模型 的 输入 ， 也 可 以 放 入 sofimax 函数 层 直接 进 将 LSTM 的 单元 状态 和 隐 层 状态 进行 合并 的 、 还 有 一 些 其 他 的 
行情 感 极 性 的 分 类 。RNN 在 1 时 刻 展开 图 如 图 1 所 示 。 变动 的 GRU 模型 。GRU 模型 是 一 种 保持 了 LSTM 效果 、 具 有 
更 加 简单 的 结构 、 更 少 的 参数 、 更 好 的 收敛 性 的 模型 。GRU 模 
型 由 更 新 门 和 重 置 门 两 个 门 组 成 。 前 一 个 时 刻 的 输出 隐 层 对 当 
前 隐 层 的 影响 程度 由 更 新 门 控制 ， 更 新 门 的 值 越 大 说 明 前 一 时 
刻 的 隐 层 输出 对 当前 隐 层 的 影响 越 大 ， 前 一 时 刻 的 隐 层 信息 被 
忽略 的 程度 由 重 置 门 控制 ， 重 置 门 的 值 越 小 说 明 忽 略 得 越 多 。 
GRU 结构 更 加 精简 ， 具 体 如 图 3 所 示 。 
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图 1 tt 时刻 RNN 结构 的 展 

RNN 基本 的 算法 思想 是 随时 间 反 向 传播 算法 , 但 在 随时 间 
反 向 传播 过 程 中 ， 跨 时 间 步 和 长 时 间 学 习 使 后 续 节 点 的 梯度 往 
往 不 能 按照 初 值 传 到 最 初 的 位 置 ， 容 易 出 现 梯 度 弥 散 问题 。 为 
了 克服 梯度 弥散 的 缺点 ,RNN 的 众多 变 体 被 提出 ， 其 中 LSTM 
就 是 RNN 变 体 中 一 种 广泛 应 用 的 经 典 变 体 。LSTM 单个 神经 
元 的 具体 结构 如 图 2 所 示 。 


图 3 GRU 神经 元 结构 图 


GRU 模型 的 更 新 方式 如 下 : 
ges [0]) 
-e(W. -[1.,.]) 
= tanh( W [x * 5 ,,x,] (7) 


h, Marce 
其 中 : ;表示 1 时刻 的 重 置 门 ，z 表示 t 时 刻 的 更 新 门 ，h K 
图 2 LSTM 神经 元 结构 图 示 t 时 刻 的 候选 激活 状态 , 表示 1 时 刻 的 激活 状态 , a 表示 (1-1) 


录用 定稿 
时 刻 的 隐 层 状态 。 更 新 门 z 由 当前 状态 需要 被 遗忘 的 历史 信息 
和 接受 的 新 信息 决定 ， 重 置 门 x 由 候选 状态 从 历史 信息 中 得 到 
的 信息 决定 。 
2.1.3 BiGRU 

在 单 向 的 神经 网 络 结构 中 ， 状 态 总 是 从 前 往 后 输出 的 。 然 
而 ， 在 文本 情感 分 类 中 ， 如 果 当 前 时 刻 的 输出 能 与 前 一 时 刻 的 


状态 和 后 一 时 刻 的 状态 都 产生 联系 如 对 这 样 


填空 The sea water in the deep sea is so 


个 句子 进行 选 词 
that the sun does 
not shine. 通 过 
shine 两 部 分 内 容 ， 我 们 可 以 更 加 确信 此 处 选 填 deep， 这 样 更 
有 利于 文本 深层 次 特征 的 提取 ， 这 就 需要 BiGRU 来 建立 这 种 
联系 。BiGRU 是 由 单 向 的 、 方 向 相反 的 、 输 出 由 这 两 个 GRU 
的 状态 共同 决定 的 GRU 组 成 的 神经 网 络 模型 。 在 每 一 时 刻 ， 
输入 会 同时 提供 两 个 方向 相反 的 GRU, 而 输出 则 由 这 两 个 单 向 
GRU 共同 决定 。BiGRU 的 具体 结构 如 图 4 所 示 。 


在 The sea water in the deep sea 和 the sun does not 


Im- 
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图 4 双向 GRU 结构 模型 图 

从 图 4 可 以 看 出 ,BiGRU 当前 的 隐 层 状态 
(t-]) 时 刻 向 前 的 隐 层 状态 的 输 太 i ,和 反 向 的 隐 层 状态 的 输出 
m 三 个 部 分 共同 决定 。 由 于 BiGRU 可 以 看 做 两 个 单 向 的 
GRU, 所 以 BiGRU 在 1 时 刻 的 隐 层 状态 通过 前 向 隐 层 状态 n, y 
反 向 隐 层 状态 hi 加 权 求 和 得 到 : 


当前 的 输入 x 、 


h, - GRU (xh) 


h, - GRU (x...) (8) 


h, — wh, t vh, +b, 
其 中 : GRU( ) 函 数 表示 对 输入 的 词 向 量 的 非 线 性 变换 ， 把 词 向 
量 编码 成 对 应 的 GRU RERS. wa v 分 别 表示 工时 刻 双 向 
GRU 所 对 应 的 前 向 隐 层 状态 有 和 反 向 隐 状 态 h 所 对 应 的 权重 ， 
4 表示 1 时 刻 隐 层 状 态 所 对 应 的 偏 置 
2.1.4 Attention model 


Attention 机 制 在 语音 识别 、 机 器 翻译 和 词性 标注 等 序列 
数据 中 表现 非凡 ，attention 机 制 可 以 单独 使 用 ， 也 可 以 在 其 
混合 模型 中 作为 其 他 混合 模型 的 层 使 用 ， 可 以 放 在 文本 向 量 
入 层 之 后 也 可 以 放 在 其 他 网 络 模型 训练 数据 之 后 ， 通 过 对 数 ] 
进行 自动 加 权 变 换 ， 把 两 个 不 同 的 部 分 联系 起 来 ， 突 出 重点 

司 语 ， 使 整个 系统 表现 出 更 好 的 性 能 。Attention 机 制 类 似 人 
ecu. 如 人 们 为 了 描述 某 些 画 的 内 容 而 去 观 


察 某 幅 画 ， 首 先 会 观察 这 幅 画 上 的 题 的 字 ， 然 后 根据 判断 有 


x 


过 Iz: 


zb OCT M 


= 


的 地 去 观察 这 幅 图 中 表现 主题 的 那 部 分 内 容 ， 当 去 描述 这 幅 画 
时 ， 往 往 会 先 描述 与 这 幅 画 最 相关 的 内 容 ， 然 后 再 去 描述 其 他 
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在 关键 信息 上 分 配 足 


方面 的 内 容 ; attention. 机 制 就 是 一 种 通过 


够 的 关注 、 突 出 局 部 重要 信息 的 机 制 。attention 机 制 通常 可 以 
分 为 两 类 : 时间 attention 机 制 和 空间 attention 机 制 ， 本 文 用 到 


的 主要 是 时 间 注 意 力 。attention 机 制 是 一 种 类 似 人 脑 的 注意 力 
资源 分 配 机 制 ， 通 过 概率 权重 分 配 的 方式 ， 计 算 不 同时 刻 词 向 
量 的 概率 权重 ， 使 一 些 词语 能 够 得 到 更 多 的 关注 ， 从 而 提高 该 
隐藏 层 特征 提取 的 质量 。Attention model 基本 结构 如 图 5 所 示 。 


图 5 attention model 基本 结构 
在 attention model 中 ， 初 始 隐 层 状态 到 新 的 隐 层 状态 的 向 


量 s 是 各 个 隐 层 状态 
数 w 与 初始 输入 的 各 个 隐 


在 新 的 隐 层 状态 所 占 的 比重 大 小 的 权重 系 
层 状 态 几 乘积 的 累加 和 ， 计 算 公 式 如 


sz Y'a, 


izl 


_ eple) 


Ye) (9) 


e, 2 wtanh(wh, +b,) 

其 中 : e 表示 第 i 时 刻 隐 层 状态 向 量 h 所 决定 的 能 量 值 , 六 和 w 
表示 第 i 时 刻 的 权重 系数 矩阵 ，5b 表示 第 i 时刻 相应 的 偏 移 量 。 
通过 式 (9) 可 以 实现 从 输入 的 初始 状态 到 新 的 注意 力 状态 的 转 
换 。 
2.2 BiGRU-Attention 模型 

BiGRU-Attention 模型 共 分 为 三 部 分 : 文本 向 量化 输入 层 、 
隐 含 层 和 输出 层 。 其 中 ， BiGRU 层 、attention 层 和 
Dense 层 三 层 构成 。BiGRU-Attention 模型 结构 如 图 6 所 示 。 
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图 6  BiGRU-Attention 模型 图 
下 面 对 这 三 层 的 功能 分 别 进行 介绍 : 
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1) 输 入 层 
输入 层 即 文本 向 量化 输入 层 主要 是 对 IMDB 电影 评论 的 25 
000 条 数据 的 预 处 理 即 把 这 些 评论 数据 处 理 成 BiGRU 层 能 够 直 
接 接 收 并 能 处 理 的 序列 向 量 形式 。m 个 单词 组 成 1 个 句子 的 文 
本 a 即 a={s,5…,5)) ， 样 本 中 "e j 个 句子 表示 为 
S WoWa Wao HILKER, fli wew' 。 文 本 向 量化 
mv 如 下 : 

a) 读 取 数 据 并 进行 数据 清洗 ; 

b) 将 数据 向 量化 为 规定 长 度 1 000 的 形式 (句子 长 度 小 于 
规定 值 的 ， 默 认 自 动 在 后 面 填充 特殊 的 符号 ; idi 度 大 于 规 
定 值 的， 默认 保留 前 1000 个 ， 多 余部 分 截 去 。 

9) 随机 初始 化 数据 ， 按 8:2 on TM 

d) 将 数据 向 量化 后 ， 每 一 条 电影 评论 都 变 成 了 统一 长 度 的 
STR EUR 

经 过 上 面 的 四 步 的 操作 之 后 ， 输 入 的 IMDB 数据 就 变 成 根 
据 索 引 对 应 词 向 量 的 形成 词 矩 阵 ， 即 设 处 理 后 词 向 量 的 统一 长 
度 为 1 000， 使 用 glove.6B.100d 的 100 维 向 量 的 形式 ， 在 
Hos 100d 中 不 能 查找 到 的 词 向 量 随机 初始 化 。 设 ci 为 第 


i 


P 


H 


个 句子 的 第 i 个 词 向 量 ， 则 一 条 长 度 为 1000 的 IMDB 评论 数 
munie 

Cj jig = Cji € 65; OB coo (10) 

Hop: 图 表示 词 向 量 与 词 向 量 的 连接 操作 符 ，cjinow 表示 为 


je Cor. Coo 即 为 第 j 个 句子 的 词 向 量 和 矩阵 。 把 IMDB 每 一 条 
评论 中 的 每 一 个 词 按照 索引 去 对 应 glove.6B.100d 中 词 向 量 , 生 
成 词 向 量 矩 阵 。 

2) 隐 含 层 

隐 含 层 的 计算 主要 分 为 两 个 步 又 完成 : 

引 计 算 BiGRU 层 输出 的 词 向 量 。 文 本 词 向 量 为 BiGRU 层 
的 输入 向 量 . BiGRU 层 的 目 的 主要 是 对 输入 的 文本 句 量 进 行文 
本 深层 次 特征 的 提取 。 根 据 BiGRU 神经 网 络 模型 图 ， 可 以 把 
BiGRU 模型 看 做 由 向 前 GRU 和 反 向 GRU 两 部 分 组 成 ， 在 这 
里 简化 为 式 (11)。 在 第 i 时 刻 输入 的 第 j 个 句子 的 第 t 个 单词 的 
词 向 量 为 ci, 通过 BiGRU 层 特征 提取 后 ， 可 以 更 加 充分 地 学 习 
上 下 文 之 间 的 关系 ， 进 行 语义 编码 ， 具 体 计 算 公 式 如 式 (11) 所 
ZN o 


h, 7 BIGRU(c,). t e[b m] (11) 
b) 计 算 每 个 词 向 量 应 分 配 的 概率 权重 。 这 个 步骤 主要 是 为 
不 同 的 词 向 量 分 配 相应 的 概率 权重 ， 进 一 步 提 取 文 本 特征 ， 突 
出 文本 的 关键 信息 。 在 文本 中 ， 不 同 的 词 对 文本 情感 分 类 起 着 
不 同 的 作用 。 地 点 状语 、 时 间 状 语 对 文本 情感 分 类 来 说 ， 重 要 
程度 极 小 ; 而 具有 情感 色彩 的 形容 词 对 文本 情感 分 类 却 至 关 重 
要 。 为 了 突出 不 同 词 对 整个 文本 情感 分 类 的 重要 度 ， 
BiGRU-Attention 模型 中 引入 了 attention 机 制 层 。Attention 机 制 
层 的 输入 为 上 一 层 中 经 过 BiGRU 神经 网 络 层 激活 处 理 的 输出 
HE ^j, , attention 机 制 层 的 权重 系数 具体 通过 以 下 几 个 公式 进 
行 计算 : 


其 中 :为 上 一 层 BiGRU 神经 网 络 


Attention 机 


到 。 


softmax 


本 分 类 ， 具 体 公 


3) 输 出 层 


输出 层 的 输入 为 上 一 层 attention 机 制 层 的 输出 。 利 用 
慨 的 输入 进行 相应 计算 的 方式 从 而 进行 文 
N 式 如 下 : 


y= softmax(ws;, *h) 


u, = tanh ( Why, + b,) 


E 
exp (uu,) 


t = S laa À 
Xev(ua.) 


n 
Si = ? Cn hs 
i=l 


(12) 


层 的 输出 向 量 ，w, RRA 
b, 表示 偏 置 系数 ， 表示 随机 初始 化 的 注意 力矩 阵 。 
唱和 矩阵 由 attention 机 种 
隐 层 状态 的 乘积 的 累加 和 ， 


1 分 配 的 不 
使 用 softmax 


pin 


n 


I 概率 权重 与 各 个 
函数 做 归 一 化 操作 得 


函数 对 输出 


(13) 


其 中 : m 表示 attention. 机 制 层 到 输出 层 的 待 训练 的 权重 系数 和 矩 
4 表示 待 训练 相对 应 的 偏 置 ，»; 为 输出 的 预测 标签 。 

2.3 ”BiGRU-Attention 模型 训练 方法 
本 文 BiGRU-Attention 模型 以 IMDB 数据 集 、 预 设 参 数 和 
迭代 次 数 N 为 输入 , 经 过 文本 向 量化 输入 层 把 IMDB 数据 集 处 


阵 ， 


"id 


向 量 的 形式 ， 利 


进行 


分 类 。 


] BiGRU-Attention 模型 对 IMDB 数据 集 


算法 ”BiGRU-Attention 神经 网 络 的 文本 情感 分 类 算法 


输入 : IMDB 数据 集 、 
输出 : IMDB 数据 全 


在 文本 向 量化 输入 层 


划分 训练 集 和 测试 集 、 


与 原 


对 IMDB 每 一 条 电影 评 


向 量 的 形式 ， 


for hop=1 to h: 


h, =GRU (xh) 


h, =GRU (xh) 


h = w h, +v,h, +b, 


us = tanh(w, hy +b,) 


T 
exp(uu,) 
Qu = 


n 
Sa = Xa, hy 
i=l 


end for 


ijt T 
> exp (upu, ) 
T 


论 的 处 理 : 


使 用 softmax 函数 计算 分 类 的 结果 概率 y=safmax(ws +b) JF 


HASA ERKAN. 
的 情感 分 类 。 
时 数据 


行 清洗 、 划 分 为 固定 长 度 、 随 机 初始 化 、 
转化 成 对 应 词 向 量 。 
IMDB 数据 集 对 应 的 词 


设 文本 中 某 个 词 对 应 的 词 向 量 为 


始 的 标签 ?进行 对 比 ， 本 文 的 目标 函数 为 


loss = -$ logy” 
j 


(14) 
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从 式 (14) 可 知 ， 通 过 上 述 的 训 


ERR, XA 1 到 n 个 单词 


分 别 进行 特征 提取 ， 分 配 相 应 权重 累加 求 和 ,Dense 层 进一步 提 


取 特 征 ， 最 后 在 softmax 输出 层 进行 分 类 ， 然 后 对 所 分 类 的 各 


个 影评 标签 值 和 logy ? 相 乘 的 累加 和 ， 累 加 和 为 负 值 ， 取 相反 ， 
使 损失 最 小 ， 计 算 误差 ， 使 用 rmsprop 作为 训练 器 ， 使 模型 训 
练 和 收敛 的 更 快 ， 在 沿 随时 间 反 向 误差 传播 过 程 中 根据 误差 不 


断 调整 并 更 新 权重 和 偏 置 ， 直 到 达到 迭代 次 数 或 小 于 某 一 个 国 


定 的 精度 为 止 。 
3 ”实验 


3.1 实验 设置 


为 了 验证 BiGRU-Attention 模型 的 有 效 性 ， 实 验 选用 公开 
的 IMDB 作为 数据 集 。 训 练 集 和 测试 集 按 8:2 进行 划分 ， 分 别 
于 模型 训练 和 模型 测试 ， 具 体 划 分 情况 如 表 1 所 示 。 


dl 数据 集 
数据 集 数据 集 语句 /条 类 别 
训练 集 20000 2 
IMDB 
测试 集 5000 2 


本 实验 采用 准确 率 、 损 失 率 和 和 迭代 时 间作 为 实验 的 评价 标 


准 。 数 据 预 处 理 是 实验 数据 放 入 神经 网 络 训练 前 最 重要 


文本 向 量 层 已 经 对 数据 处 理 做 了 详 


T 
SE 


细 的 论述 ,在 这 里 不 做 陈述 。 


本 实验 采用 keras 深度 学 习 框 


架 ， 底 层 为 TensorFlow， 使 用 


Python 语言 编程 实现 ;实验 运行 环境 为 JetBrains PyCharm 软 


牛 、Win10 系统 、 内 存 8 GB 等 。 


民 、 隐 藏 层 和 文本 分 类 层 的 三 层 网 络 结构 。 实 验 中 有 许多 超 参 


本 实验 模型 为 文本 向 量 输入 


Æ 4, $: 基于 BiGRU- m" 神经 网 络 的 


3.3 ”实验 步骤 


BiGRU-Attention 模型 


al) 进行 数据 清洗 ; 


hinaXiv& (ER iHT Hl 


分 类 模型 


体 实 验 步骤 如 下 : 


b) 统 一 为 固定 长 度 的 索引 向 量 
9 划分 训练 集 和 测试 集 ; 


Im 


d) 每 一 个 索引 向 量 对 应 词 向 
e) 拼 接 词 向 量 , 组 成 词 矩阵 ， 形 


输入 ; 


f) 把 文本 输入 和 矩阵 放 入 BiGRU 层 ， 采 用 公式 (11) 进 行 模型 
训练 ， 提 取 文 本 层次 特征 ; 


E iX, BIGRU-Attention 模型 


的 形式 ; 


pes 


的 


是 放 入 Attention 模型 
h) 采 用 IMDB 测试 外 


xl 


3.4 对 比 实验 


BiGRU-Attention 模型 


型 的 结构 情况 如 下 : 


J 给 文本 的 向 量 分 配 相 应 的 权重 ; 
EXE1T BIGRU-Attention 模型 性 能 评估 。 


a)JASC, Rozental 等 人 DB29 提 


4 与 以 下 常见 的 7 模型 进行 对 比 。7 模 


出 的 利用 Bi-LSTM 进行 特征 提 
取 和 降 维 、 最 大 池 化 层 突出 重点 信息 、 全 连接 层 降 维 ， 采 用 


个 不 同 维度 处 理 的 向 量 进行 连接 ,进入 全 连接 层 ， 最 后 softmax 


分 类 的 网 络 模型 


b)DBLSTM-Attention。Chen 等 
置 Attention 机 制 结合 的 混合 实验 模型 。 
c)BiLSTM-Attentions 。 
和 两 层 Attention 机 制 结 合 
dHDBN 模型 。Yan 等 


数 需要 设置 和 调整 ， 超 参数 设 dM ide. 次 迭代 完成 


后 ， 根 据 实验 的 准确 率 、 损 失 率 调整 的 。 经 过 多 次 迭代 ， 实 验 


设置 的 超 参 数 如 表 2。 
表 2 模型 参数 设置 

参数 f 

BiGRU 隐藏 层 节点 数 190 
Loss 函数 Categorical crossentropy 

optimzer rmsprop 
Batch, size 50 
词 向 量 维度 100 


322 ”实验 评价 标准 


本 文采 用 准确 率 、 损 失 率 和 迭代 时 间作 为 实验 的 评价 标准 ， 
设 样本 数 总 数 为 M， 被 正确 分 类 的 样本 数 为 m, 则 正确 率 


(&ccuracy) 7j 


Accuracy 


-如 (15) 


损失 函数 是 在 每 一 次 随机 批量 


的 批量 样本 的 相 乘 累加 和 取 反 得 至 


到 的 。 


量 训练 的 过 程 中 ， 按 照 式 (14) 
B 
迭代 时 间 是 10 次 迭代 过 程 每 


一 次 时 间 相 加 的 和 取 均 值得 


At AUTE HIT BiLSTM 和 位 


Kumar 等 人 B89 提 出 的 利用 BiLSTM 
的 混合 实验 模型 。 
提出 了 主要 利 ] DBM 降 噪 降 


维 .DBN 提取 层次 特征 和 softmax 
混合 的 HDBN 的 混合 神经 网 乡 


层 文 本 分 类 的 将 DBM 和 DBN 
H. 


e)S-LSTM. Zhu 等 人 B9 提 出 的 利用 树 形 结构 的 LSTM 模型 


并 通过 记忆 细胞 来 记 住 历史 信息 
DBiLSTM-Attention 模型 


BiGRU-Attention 模型 


BiLSTM-Attention 模型 就 
BiGRU 层 换 成 BILSTM 层 


g)LSTM-Attention 


的 混合 模型 。 

。 BiLSTM-Attention 模型 与 
属于 同 种 类 型 的 混合 实验 模型 。 
是 把 BiGRU-A-ttention 模型 中 的 


其 他 实验 设置 均 相 同 。 


LSTM-Attention 模型 、 


Bi-LSTM-Attention 模型 与 BiGRU-Attention 模型 都 属于 同 种 类 


型 的 混合 实验 模型 。 
BiGRU-Attention 模型 中 昌 


设置 均 相 同 。 


以 上 所 有 的 实验 模型 


LSTM-Attention 模型 就 是 把 
fJ BiGRU 层 换 成 LSTM 层 ， 其 他 实验 


基本 分 为 文本 向 量 输入 层 、 隐 藏 层 


即 文本 信息 提取 功能 层 和 文本 分 类 层 的 三 层 网 络 结构 ， 超 参数 


相同 ,迭代 次 数 均 为 10 次 。 


屋 即 模型 功能 层 外 ， 


3.5 实验 结果 分 析 


3.5.1 与 HDBN S-LSTM 、 


量 四 种 模型 其 
变量 层 的 唯一 性 和 实验 结果 的 针对 的 比较 性 。 


从 以 上 分 析 可 以 看 出 ， 除 了 实验 变 


也 条 件 均 相 同 ， 保 证 了 实验 


ASC 、DBLSTM-Attention 、 


BiLSTM-Attentions 模型 的 对 比 实 验 


本 实验 选用 在 10 次 迭代 过 程 


P. 在 测试 集 上 最 高 的 准确 率 


作为 该 模型 的 准确 率 ， 对 应 的 测试 集 最 高 准确 率 的 损失 率 即 为 
该 模型 的 损失 率 ， 对 应 的 迭代 时 间 即 为 该 模型 的 迭代 时 间 记 为 


time， 具 体 如 表 3 所 示 。 


表 3 不 同 模型 的 分 类 结果 


王 4, #: 基于 BiGRU-Attention it 经 网 络 的 


的 ， M eR: K rA 


FAS 
青 感 分 类 模型 
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验 中 ， 准 确 率 、 损 失 率 和 时 间 代 价 都 不 是 一 成 不 变 
Ce 本 文 在 


与 本 实验 模型 最 相近 


BiLSTM-Attentions、 


m" 提出 的 四 种 (BiGRU-Attention、ASC、BiLSTM-Attentions 
和 DBLSTM-Attention) 模型 进 和 
a) 本 X 将 BiGRU-Attention 
DBLSTM-Attention 模型 在 训练 集 上 进行 
进行 对 比 实验 ， 得 到 在 测试 集 上 的 准确 率 与 


模型 与 ASC 、 


AN UOCE ROB AS FR 
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模型 准确 率 损失 率 time 
BiGRU-Attention 90.54% 0.2430 1100s 
ASC 89.96% 0.2445 985s 
BiLSTM-Attentions 90.34% 0.2438 1417s 
DBLSTM-Attention 88.85% 0..2650 1345s 
S-LSTM 88.74% 0.2847 1205s 
HDBN 86.94% 0.3947 1115s 

从 表 3 可 以 看 出 ， 本 文 所 提出 的 BIGRU-Attention 模型 在 


准确 率 、 损 失 率 方面 的 表现 性 


间 代 价 高 于 ASC 实验 


给 模 型 但 低 于 其 他 四 种 模型 。 


这 六 种 实验 模型 的 准 


模型 准确 率 和 损失 率 性 能 优 于 ASC 模型 ， 两 模型 

来 提取 文本 的 重点 信息 ; P 
刁 的 基础 上 加 了 Attention 层 ， 
层 分 配 相 应 的 权重 来 突出 文本 的 重点 特征 ， 而 另 一 个 则 是 在 
BiGRU 层 的 基础 上 增加 了 最 大 池 化 层 , 利用 最 大 池 化 的 突出 重 


BiGRU 神经 网 络 层 ， 
于 一 个 是 在 BiGRU 


确 率 、 损 失 率 、 时 间 代价 上 
率 、 损 失 率 、 时 间 代 价 总 是 
动 。 表 格 从 上 往 下 进行 依次 对 比 ， 可 以 看 出 BIGRU 


随 着 模型 复杂 度 有 月 


能 均 优 于 其 他 五 种 实验 模型 ， 时 

从 总 体 上 看 ， 
较 接 近 ， 准 确 
变化 、 上 下 波 


-Attention 


都 利用 1 


型 的 区 别 在 


要 信息 ， 遗 忘 次 要 信 


息 的 特征 。 由 两 者 的 比较 可 以 看 出 ， 


Attention 层 在 突出 重要 信 


池 化 层 ， 表 现在 实验 谭 
损失 率 , 但 因为 Attention 
算 进 行 的 ， 相 比 于 单纯 的 最 大 池 化 ， 时 间 


BiGRU-Attention 模型 
DBLSTM-Attention ， 这 两 个 实验 模型 


在 实验 的 记 


用 Attention 


型 的 准确 率 始终 高 于 


4 准确 率 高 于 ASC "m 


息 方面 的 表现 性 能 要 优 于 卷 积 的 最 大 
FE 价 指标 性 能 方面 就 是 提高 准 
层 突出 信息 的 功能 是 


确 率 ， 降 低 
通过 不 断 加 权 计 
S rm. 
Fr dB rg f 
均 存 在 attention 层 ， 


H 


更 具 快 速 凸显 的 重要 信息 、 


模型 准确 率 变化 情况 
示 了 随和 迭代 次 数 准 确 率 的 变化 情况 ， 各 个 
准确 率 不 断 地 提高 ，BiGRU-Attention 


其 中 BiGRU-Attention 


突出 Attention 层 相 比 最 大 池 化 
提取 的 文本 深层 次 特征 ,快速 收敛 ， 
寺 征 ， 在 第 三 次 迭代 时 就 能 达到 最 高 准确 


且 在 最 初 训 练 时 的 准 


确 率 就 高 于 其 他 三 种 ， 训 练 效 果 较 
型 总 体 上 准确 率 平稳 变化 , (BER k 


Podio qM 


但 准确 率 始终 高 于 其 
-Attention 、 ASC 和 


BiLSTM-Attentions 这 三 种 模型 
线 相对 变化 起 伏 比 较 大 。 可 见 


attention. 层 的 主要 功能 蔓 


本 相同 ， 模 型 结构 也 基 


本 相同 ;不同 
在 于 实验 模型 的 第 一 层 一 个 是 BiGRU 层 , 而 另 一 个 是 BiLSTM 


出 BiGRU 神经 网 络 在 提 


DBLSTM-Attention 模型 进行 比较 ， 两 者 的 区 
BiLSTM-Attentions 模型 如 


Attention 层 ， 通 过 对 实验 评 
出 Attention 层 突出 文本 信 

总 之 ， 通 过 对 上 面 几 个 模型 的 对 比分 析 可 以 得 
个 结论 : 在 IMDB 数据 集 上 ，BiGRU 模型 要 优 于 BILSTM, [X 
为 BiGRU 收敛 速度 更 快 ， 计 算 更 简 


比 BILSTM 神经 网 络 表 


取 文 本 重点 信息 、 减 少 计算 量 方面 相 
网 更 优 。BiLSTM-Attentions 模型 与 


屋 ， 通 过 本 实验 这 两 个 实验 模型 的 评价 指标 观察 分 析 ， 可 以 看 


lm 


确 率 降 低 损 失 率 的 同时 


出 


hal 


重点 信息 方面 要 优 于 卷 积 的 池 化 


模型 在 实验 的 指标 方面 


3.5.2 迭代 次 数 


本 实验 选用 10 次 迭代 实验 来 作为 实验 的 记 


义 表 现 比 较 优异 o 


X a Æ F 
比 DBLSTM-Attention 模型 多 一 个 
价 指标 的 分 析 ， 我 们 可 以 清楚 的 看 
>= 息 的 重要 作用 


BR. SEP, 
条 低 模型 的 训练 时 间 ;， attention. AER 
E. BrEA BiGRU-Attention 


出 这 样 的 一 


在 提高 准 


价 指标 分 析 。 在 


交接 近 ， 而 DBLSTM H 
> BIGRU 模型 在 提取 文本 深层 次 
表现 更 优 且 比较 稳定 ;， 从 迭代 次 数 上 看 ， 并 不 是 迭代 


型 都 有 其 达到 最 高 准确 率 的 


失 代 次 数 如 BiGRU-Attention 模型 在 SRM 住 确 
ASC 模型 在 第 六 次 迭代 时 准 
,BiGRU-Attention 模型 


确 率 最 高 。 从 以 上 分 析 
et oC) 情况 下 


一 次 逻 代 所 需要 的 时 间 是 


实验 所 需 的 时 间 代 


全 出 了 四 种 模型 在 相同 
需要 时 间 的 变化 趋势 曲 


的 实验 条 件 下 完成 一 次 迭代 所 


图 8 四 种 模型 的 迭代 时 间 图 
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如 图 8 可 以 看 出 ， 各 个 模型 的 迭代 时 间 总 体 上 没有 多 大 起 
伏 ， 整 体 时 间 趋 于 平稳 ， 一 般 都 经 过 了 最 低 的 迭代 时 间 之 后 ， 
再 次 训练 的 时 候 ， 训 练 时 间 不 会 再 有 较 大 的 起 伏 ; ASC 模型 


China {FERFI 


iV 合 
E 4b, 5. 基于 BiGRU-Attention 神经 网 络 的 文 Hi 情感 分 类 模型 


高 准确 率 和 低 损 失 率 的 特点 。 但 是 毕竟 不 属于 同 种 类 型 混合 实 
验 模 型 的 对 比 , 缺少 实验 的 说 服 力 。 因 此 , 选择 BiGRU-Attention 
BiLSTM-Attention 模型 、LSTM-Attention 模型 的 对 比 


piu 
mH MA 3C Eg ERAI dg A UE ERE UL s 
代 收 敛 速 度 是 分 不 开 的 ; BiGRU-Attention 模型 的 迭代 时 间 曲 线 
位 于 DBLSTM-Attention 迭代 时 间 曲 线 和 ASC 曲线 之 间 ， 总 体 
时 间 性 能 居中 ，BiGRU-Attention 和 DBLSTM-Attention 这 两 个 
模型 的 区 别 基本 上 在 于 BiLSTM 和 BiGRU 的 不 同 所 引起 的 ， 

二 者 进 代 时 间 的 不 同 , 说 明 : 迭代 速度 不 同 , BiGRU 比 BiLSTM 
有 计算 更 快 、 参 数 更 少 的 特性 ; BILSTM-Attentions 模型 
的 迭代 时 间 曲 线 相对 来 说 最 高 ， 是 因为 BILSTM 神经 网 络 相 对 


仿 ， 具 体 情况 如 表 4 所 示 。 
表 4 三 种 模型 对 比 


模型 准确 率 损失 率 time 
BiGRU-Attention 90.5496 0.2430 1100s 
BiLSTM-Attention 89.2396 0.2460 1352s 
LSTM-Attention 87.6396 0.2520 1221s 
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看 出 BIGRU-Attention. 模型 在 训练 集 和 测试 集 比 其 他 两 种 实验 


计算 较 复 杂 、 增 加 了 计算 的 时 间 并 且 Attention 层 在 突出 重点 信 
息 的 同时 也 增加 了 加 权 计 算 时 间 的 缘故 。 
c) 测 试 数据 集 的 损失 率 也 是 衡量 模型 性 能 的 一 个 重要 的 标 
准 ， 损 失 率 越 小 说 明 模 型 的 性 能 指标 越 好 。 从 图 9 可 以 看 出 ， 
各 个 模型 在 各 次 迭代 过 程 中 ， 有 些 模型 损失 率 的 起 伏 还 是 比较 
大 的 如  BiGRU-Attntion 、 DBLSTM-Attention 和 
BiLSTM-Attentions 模型 损失 率 曲线 起 伏 比较 大 ， 但 ASC 模型 
达到 最 低 的 损失 率 后 ， 模 型 曲线 没有 多 大 变化 ， 说 明 没有 加 入 
Attention 层 的 模型 的 稳定 性 比较 好 ， 各 个 模型 达到 损失 率 最 低 
的 迭代 次 数 也 不 尽 相 同 ， 比 如 BiGRU-Attention 模型 在 第 四 次 
迭代 时 达到 最 低 损 失 率 0.2430; 而 ASC 模型 在 第 六 次 迭代 时 达 
到 最 低 的 损失 率 0.2445; BiGRU-Attention 模型 最 初 迭 代 的 时 候 
损失 率 明显 的 低 于 其 他 模型 ， 达 到 最 小 的 损失 率 后 随 着 迭代 次 
数 的 增加 ， 其 损失 率 呈 现 逐 渐 上 升 的 趋势 ;而 ASC 模型 总 体 | 
线 变 化 相对 比较 平稳 ， 总 体 呈 下 降 趋势 。 


val loss 


I loss(*4) 


图 9 训练 集 损 失 率 变化 曲线 

结合 图 7~9 可 以 看 出 , 虽然 BiGRU-Attention 模型 相 比 ASC 
模型 需要 训练 的 时 间 代 价 要 稍微 地 高 一 些 ， 但 其 准确 率 更 高 ， 
损失 率 更 低 , 达到 最 佳 准 确 率 和 损失 率 所 需要 的 迭代 次 数 更 少 ， 
总 体 上 需要 的 训练 时 间 较 少 ; BiGRU-Attention 模型 在 训练 集 上 
无 论 准 确 率 、 损 失 率 还 是 在 迭代 次 数 上 都 有 具有 相 比 
DBLSTM-Attention 和 BiLSTM-Attentions 模型 无 法 比拟 的 优 
势 。 综 上 ， 本 实验 证 明了 BiGRU-Attention 的 模型 有 效 性 。 
3.5.3 与 BiLSTM-Attention 模型 、LSTM-Attention 模型 的 对 比 


实验 
虽然 BiGRU-Attention 模型 与 HDBN、S-LSTM 、ASC 、 
DBLSTM-Attention 、BiLSTM-Attentions 模型 的 对 比 实验 已 经 
分 的 说 明 ，BiGRU-Attention 模型 具有 降低 模型 训练 时 间 、 


s 


模型 表现 更 优 。 


4 ”结束 语 


本 文 提出 了 一 种 新 的 基于 BiGRU-Attention 的 神经 网 络 模 
型 , 比 起 目前 最 广泛 使 用 的 BiLSTM 神经 网 络 和 Attention 的 混 
合 模 型 ， 能 够 在 提高 准确 率 的 同时 降低 损失 率 ， 适 当地 降低 了 
模型 的 训练 时 间 。 一 方面 说 明 BIGRU 比 BiLSTM 更 加 的 简单 ， 
训练 时 间 要 快 一 些 ， 另 一 方面 说 明 BiGRU 与 Attention 模型 结 
合 的 有 效 性 ; 在 与 最 新 提出 来 的 模型 相 比 ， 总 体 上 看 来 ， 

BiGRU-Attention 的 神经 网 络 模型 略 胜 其 他 网 络 模型 。 虽 然 基 于 
BiGRU-Attention 的 神经 网 络 模型 在 IMDB 数据 集 上 的 准确 率 
较 高 ， 损 失 率 较 低 ， 但 随 着 数据 量 的 增 大 ， 其 准确 率 会 有 所 下 
降 ; 加 入 Attention 机 制 模型 需要 进一步 自动 加 和 处 理 所 有 的 对 
象 并 且 要 存储 相应 的 权重 信息 ,增加 了 系统 的 计算 和 系统 开销 。 


Hr 


[un 


下 一 步 将 寻找 能 够 在 数据 量 巨大 时 ， 训 练 时 间 较 短 ， 准 确 率 较 
高 ， 损 失 率 较 低 ， 计 算 量 小 ， 系 统 开销 小 ， 更 适合 文本 情感 分 
类 的 神经 网 络 模型 。 
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